计算机视觉与数字图像处理导论

计算机视觉是人工智能的一个领域，使计算机能够从数字图像和视频中提取有意义的信息，有效尝试弥合语义鸿沟原始像素数据与人类理解水平之间的差距。数字图像处理是计算机视觉的基础层，专注于通过像素到像素的变换对图像信号进行操作和增强，为更高层次的解释性任务准备数据。

数据表示：在机器层面，图像是一种数值张量而非整体图像。灰度图像是强度值的二维矩阵，而彩色图像则是表示红、绿、蓝（RGB）通道的三维张量，尺寸为 $H \times W \times 3$。
变换与解释：数字图像处理主要关注图像到图像的操作，如降噪、锐化或直方图均衡化。计算机视觉则专注于图像到知识的操作，如目标分类、定位和分割。
逆向图形范式：计算机视觉可以看作是计算机图形学的逆过程。图形学试图从数学模型生成视觉世界，而视觉则试图从二维投影中恢复三维结构和语义标签。

核心挑战

该领域的首要挑战是语义鸿沟，即机器处理的低级像素值与人类感知的高级概念之间的脱节。

Python 实现

问题 1

哪种过程被归类为图像到知识的操作？

数字图像处理

计算机视觉

计算机图形学

直方图均衡化

问题 2

在机器层面，标准彩色图像的数据结构是什么？

二维矩阵

一维数组

三维张量 / RGB 通道

链表

案例研究：医学诊断系统

阅读以下情景并回答问题。

一家医院正在开发一种新的自动化医学诊断系统，旨在分析X光扫描以检测潜在的骨折。该系统处理来自X光机的原始传感器数据，并为放射科医生生成诊断报告。

问

1. 如果系统应用对比度增强以使骨骼结构更清晰，这是数字图像处理（DIP）还是计算机视觉（CV）？

答案：
数字图像处理。对比度增强是一种图像到图像的变换，可提升信号的视觉质量，而不提取语义信息。

问

2. 如果系统自动将某个特定区域标记为潜在骨折，它在执行什么任务？

答案：
计算机视觉 / 目标检测。系统正在解释图像内容以提取高层次知识（定位骨折）。

问

3. 为什么在运行检测算法之前需要进行降噪？

答案：
为了提高信号质量，并减少语义解释阶段的误报。噪声可能被计算机视觉算法误认为是实际特征或边缘。